<!DOCTYPE html>
<html lang="zh-CN">
  <head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width,initial-scale=1">
    <title>Material of Analysis | 数据的描述</title>
    <meta name="description" content="The analytical data that you often use to learn">
    <link rel="icon" href="/material/logo.png">
  <link rel="manifest" href="/material/manifest.json">
  <meta name="theme-color" content="#3eaf7c">
  <meta name="apple-mobile-web-app-capable" content="yes">
  <meta name="apple-mobile-web-app-status-bar-style" content="black">
  <link rel="apple-touch-icon" href="/material/icons/apple-touch-icon-152x152.png">
  <link rel="mask-icon" href="/material/icons/safari-pinned-tab.svg" color="#3eaf7c">
  <meta name="msapplication-TileImage" content="/icons/msapplication-icon-144x144.png">
  <meta name="msapplication-TileColor" content="#000000">
    
    <link rel="preload" href="/material/assets/css/0.styles.89749010.css" as="style"><link rel="preload" href="/material/assets/js/app.671f232e.js" as="script"><link rel="preload" href="/material/assets/js/12.2aab57fe.js" as="script"><link rel="prefetch" href="/material/assets/js/9.6ad28882.js"><link rel="prefetch" href="/material/assets/js/1.a893eea4.js"><link rel="prefetch" href="/material/assets/js/2.ad32dd32.js"><link rel="prefetch" href="/material/assets/js/3.2af42d2c.js"><link rel="prefetch" href="/material/assets/js/4.b8a50edf.js"><link rel="prefetch" href="/material/assets/js/5.3a34f633.js"><link rel="prefetch" href="/material/assets/js/6.36baf8b1.js"><link rel="prefetch" href="/material/assets/js/7.23741c7b.js"><link rel="prefetch" href="/material/assets/js/8.0b506f6a.js"><link rel="prefetch" href="/material/assets/js/10.aa5bc1f8.js"><link rel="prefetch" href="/material/assets/js/11.b5d01b0b.js"><link rel="prefetch" href="/material/assets/js/13.17c8fcb3.js"><link rel="prefetch" href="/material/assets/js/14.b0d8de38.js"><link rel="prefetch" href="/material/assets/js/15.95c4b4d8.js"><link rel="prefetch" href="/material/assets/js/16.8279b098.js"><link rel="prefetch" href="/material/assets/js/17.c88c3a9c.js"><link rel="prefetch" href="/material/assets/js/18.0635186f.js"><link rel="prefetch" href="/material/assets/js/19.5e722a99.js">
    <link rel="stylesheet" href="/material/assets/css/0.styles.89749010.css">
  </head>
  <body>
    <div id="app" data-server-rendered="true"><div class="theme-container"><header class="navbar"><div class="sidebar-button"><svg xmlns="http://www.w3.org/2000/svg" aria-hidden="true" role="img" viewBox="0 0 448 512" class="icon"><path fill="currentColor" d="M436 124H12c-6.627 0-12-5.373-12-12V80c0-6.627 5.373-12 12-12h424c6.627 0 12 5.373 12 12v32c0 6.627-5.373 12-12 12zm0 160H12c-6.627 0-12-5.373-12-12v-32c0-6.627 5.373-12 12-12h424c6.627 0 12 5.373 12 12v32c0 6.627-5.373 12-12 12zm0 160H12c-6.627 0-12-5.373-12-12v-32c0-6.627 5.373-12 12-12h424c6.627 0 12 5.373 12 12v32c0 6.627-5.373 12-12 12z"></path></svg></div><a href="/material/" class="home-link router-link-active"><!----><span class="site-name">
      Material of Analysis
    </span></a><div class="links"><div class="search-box"><input aria-label="Search" autocomplete="off" spellcheck="false" value=""><!----></div><nav class="nav-links can-hide"><div class="nav-item"><a href="/material/basic/" class="nav-link router-link-active">基础</a></div><a href="https://github.com/docschina/vuepress" target="_blank" rel="noopener noreferrer" class="repo-link">
    GitHub
    <svg xmlns="http://www.w3.org/2000/svg" aria-hidden="true" x="0px" y="0px" viewBox="0 0 100 100" width="15" height="15" class="icon outbound"><path fill="currentColor" d="M18.8,85.1h56l0,0c2.2,0,4-1.8,4-4v-32h-8v28h-48v-48h28v-8h-32l0,0c-2.2,0-4,1.8-4,4v56C14.8,83.3,16.6,85.1,18.8,85.1z"></path><polygon fill="currentColor" points="45.7,48.7 51.3,54.3 77.2,28.5 77.2,37.2 85.2,37.2 85.2,14.9 62.8,14.9 62.8,22.9 71.5,22.9"></polygon></svg></a></nav></div></header><div class="sidebar-mask"></div><div class="sidebar"><nav class="nav-links"><div class="nav-item"><a href="/material/basic/" class="nav-link router-link-active">基础</a></div><a href="https://github.com/docschina/vuepress" target="_blank" rel="noopener noreferrer" class="repo-link">
    GitHub
    <svg xmlns="http://www.w3.org/2000/svg" aria-hidden="true" x="0px" y="0px" viewBox="0 0 100 100" width="15" height="15" class="icon outbound"><path fill="currentColor" d="M18.8,85.1h56l0,0c2.2,0,4-1.8,4-4v-32h-8v28h-48v-48h28v-8h-32l0,0c-2.2,0-4,1.8-4,4v56C14.8,83.3,16.6,85.1,18.8,85.1z"></path><polygon fill="currentColor" points="45.7,48.7 51.3,54.3 77.2,28.5 77.2,37.2 85.2,37.2 85.2,14.9 62.8,14.9 62.8,22.9 71.5,22.9"></polygon></svg></a></nav><ul class="sidebar-links"><li><div class="sidebar-group first"><p class="sidebar-heading open"><span>基础</span><!----></p><ul class="sidebar-group-items"><li><a href="/material/basic/" class="sidebar-link">介绍</a></li><li><a href="/material/basic/getting-started.html" class="active sidebar-link">数据的描述</a><ul class="sidebar-sub-headers"><li class="sidebar-sub-header"><a href="/material/basic/getting-started.html#引言" class="sidebar-link">引言</a></li><li class="sidebar-sub-header"><a href="/material/basic/getting-started.html#单个变量数据的描述：-图表法" class="sidebar-link">单个变量数据的描述： 图表法</a></li><li class="sidebar-sub-header"><a href="/material/basic/getting-started.html#单个变量数据的描述：-中心趋势的度量" class="sidebar-link">单个变量数据的描述： 中心趋势的度量</a></li><li class="sidebar-sub-header"><a href="/material/basic/getting-started.html#单个变量数据的描述：-变异性度量" class="sidebar-link">单个变量数据的描述： 变异性度量</a></li><li class="sidebar-sub-header"><a href="/material/basic/getting-started.html#盒形图" class="sidebar-link">盒形图</a></li><li class="sidebar-sub-header"><a href="/material/basic/getting-started.html#多变量数据的概括" class="sidebar-link">多变量数据的概括</a></li></ul></li><li><a href="/material/basic/basic-config.html" class="sidebar-link">概率和概率分布</a></li><li><a href="/material/basic/assets.html" class="sidebar-link">关于总体中心值的推断</a></li></ul></div></li></ul></div><div class="page"><div class="content"><h1 id="数据的描述"><a href="#数据的描述" aria-hidden="true" class="header-anchor">#</a> 数据的描述</h1><div class="warning custom-block"><p class="custom-block-title">注意事项</p><p>跳过了第二章收集数据(不在考虑的范围)</p></div><h2 id="引言"><a href="#引言" aria-hidden="true" class="header-anchor">#</a> 引言</h2><p>统计领域可以分为两个主要的分支 ： 描述统计与推断统计，在两个分支中，我们都要讨论一个测量值的集合，在以数据描述为主要目标的情形，我们所拥有的测量值常常来自整个总体，我们面临的主要问题是组织、概括和描述这些数据，即理解这些数据。</p><p>适当的概括性度量可以为原始测量值的集合提供一副良好的、粗线条的描绘。通过把一大堆测量值缩减到几个这样的描述性统计量，我们可以理解数据所包含的信息，描述一组测量值有两个主要方法，即图形方法和数值描述方法</p><h2 id="单个变量数据的描述：-图表法"><a href="#单个变量数据的描述：-图表法" aria-hidden="true" class="header-anchor">#</a> 单个变量数据的描述： 图表法</h2><p>在收集到感兴趣的测量值后，可以同股各种图形技术、对数据进行合理地组织、显示以及考察，就常规而言，应当对数据进行分类，使得每一个测量值都被分入这些类中的某一类，且是唯一一类</p><p>有几种图表法可以把数据显示出来 :</p><ul><li><strong>饼图法</strong>: 通过把一个园分割(近似于切一个张饼)，很有效的展示了测量值落进每一类的总数的百分比</li><li><strong>条形图</strong>: 条形图有许多形式，有时也可平行排列，也可根据时间排列数据</li><li><strong>频数直方图和频率直方图</strong>: 这两个图表法都仅仅适用于定量的(可测量的)数据，有一个峰的直方图称为<strong>单峰(正态)直方图</strong>,有两个主峰的直方图称为<strong>双峰直方图</strong></li></ul><div class="tip custom-block"><p class="custom-block-title">TIP</p><p>如果每个区间上都有基本相同的个数的观测值时，这种直方图称为<strong>均匀直方图</strong>,如果一个直方图的左边和右边有基本相同的形状，则直方图是<strong>对称</strong>的，如果右边包含的观察数据大于半，比左边伸展的远，则称为<strong>右偏</strong>的,如果左边包含的观察数据大于半，比右边伸展的远，则称为<strong>左偏</strong>的,</p></div><ul><li><strong>茎叶图</strong>: 一种简单、灵活的图形方法，即作一个像直方图一样的频数分布图</li></ul><div class="tip custom-block"><p class="custom-block-title">TIP</p><p><strong>茎叶图</strong>是来自称为<strong>探索性数据分析</strong>(EDA)领域的一中显示数据的技巧，John Tukey教授(1977)是这一数据分析的实用方法的倡导者，这种方法的目的在于探索和理解数据</p></div><ul><li><strong>时间序列</strong>: 表示变量如何随着时间而变化的图形法，通常，时间点按照年代顺序排列在横轴上(横坐标)，感兴趣的变量的数值(频数、百分比、比率等)沿着纵轴标出(纵坐标)，时间序列对于检查变化的总趋势、季节性以及周期性是很有用的</li></ul><h2 id="单个变量数据的描述：-中心趋势的度量"><a href="#单个变量数据的描述：-中心趋势的度量" aria-hidden="true" class="header-anchor">#</a> 单个变量数据的描述： 中心趋势的度量</h2><p>数值的描述方法常用来表达对图形、物体以及其他现象的理性反映，主要有两个原因，首先</p><p>图形描述方法对于统计推断是不太恰当的，因为它很难描述样本频数直方图和相应的总体频数直方图之类的相似之处</p><p>借助于语言表达能力去进行恰当的描述，我们寻求几个数字，称之为数值描述性度量，这些量将使我们对一组测量值的频率分布有一个大致的印象</p><p>最常见的两种数值描述性度量是<strong>中心趋势度量</strong>和<strong>变异性度量</strong>,也就是说，我们希望描述测量值分布的中心，并且弄清测量值是如何相对于分布中心变化的</p><p>为了把总体的数值描述性度量和样本的数值描述性度量区别开来，称前者为<strong>参数</strong>,后者为<strong>统计量</strong></p><p>在统计推断的有关问题中，不能计算各种参数的数值，但是可以计算来自样本的相应的统计量，并用所得到的数值去估计相应的总体参数</p><ul><li><strong>众数</strong>: 一组测量值中的出现次数最多(有最高频数)的测量值</li><li><strong>中位数</strong>: 一组测量值中的中位数是指把这些测量值从小往大排序时的中间值</li></ul><div class="tip custom-block"><p class="custom-block-title">TIP</p><p>对于偶数个测量值的中位数，是将其从小到大排序后的中间两个数值的平均数，奇数个测量值的中位数仍然是中间值.</p><p>不过分组数据的中位数比较难以计算，令</p><p><math><mi>L</mi><mo>=</mo><mi>包</mi><mi>含</mi><mi>中</mi><mi>位</mi><mi>数</mi><mi>的</mi><mn>分</mn><mi>组</mi><mi>区</mi><mi>间</mi><mi>的</mi><mi>下</mi><mi>限</mi></math></p><p><math><mi>n</mi><mo>=</mo><mi>总</mi><mi>频</mi><mi>数</mi></math></p><p><math><mi>c</mi><msub><mi>f</mi><mi>b</mi></msub><mo>=</mo><mi>包</mi><mi>含</mi><mi>中</mi><mi>位</mi><mi>数</mi><mi>的</mi><mi>区</mi><mi>间</mi><mi>前</mi><mi>所</mi><mi>有</mi><mi>区</mi><mi>间</mi><mi>的</mi><mi>频</mi><mi>数</mi><mi>之</mi><mi>和</mi></math>(累积频数)</p><p><math><msub><mi>f</mi><mi>m</mi></msub><mo>=</mo><mi>包</mi><mi>含</mi><mi>中</mi><mi>位</mi><mi>数</mi><mi>的</mi><mn>分</mn><mi>组</mi><mi>区</mi><mi>间</mi><mi>的</mi><mi>频</mi><mi>数</mi></math></p><p><math><mi>w</mi><mo>=</mo><mi>区</mi><mi>间</mi><mi>宽</mi><mi>度</mi></math></p><p>则对于分组数据,</p><math display="block"><mi>中</mi><mi>位</mi><mi>数</mi><mo>=</mo><mi>L</mi><mo>+</mo><mfrac><mi>w</mi><msub><mi>f</mi><mi>m</mi></msub></mfrac><mi>（</mi><mn>0.5</mn><mi>n</mi><mo>+</mo><mi>c</mi><msub><mi>f</mi><mi>b</mi></msub><mi>）</mi></math></div><ul><li><strong>均值</strong>: 一组测量值的算术平均值或者均值定义是测量值的总和除以测量值的总个数，就是平均数，是数据集合的重心，由于均值在之后的章节的统计推断中的重要角色，给样本均值用符号<math><mover><mi>y</mi><mo accent="true">‾</mo></mover></math>，总体均值用希腊字母<math><mi>μ</mi></math>表示，如果以<math><msub><mi>y</mi><mn>1</mn></msub><mo>,</mo><msub><mi>y</mi><mn>2</mn></msub><mo>…</mo><mo>,</mo><msub><mi>y</mi><mi>n</mi></msub></math>表示容量为<math><mi>n</mi></math>的测量样本的观察值，则样本均值记为</li></ul><math display="block"><mover><mi>y</mi><mo accent="true">‾</mo></mover><mo>=</mo><mfrac><mrow><munder><mo>∑</mo><mi>i</mi></munder><msub><mi>y</mi><mi>i</mi></msub></mrow><mi>n</mi></mfrac></math><p>其中出现在分子中的符号<math><munder><mo>∑</mo><mi>i</mi></munder><msub><mi>y</mi><mi>i</mi></msub></math>表示<math><mi>n</mi></math>个测量<math><msub><mi>y</mi><mi>i</mi></msub></math>的总和:</p><math display="block"><munder><mo>∑</mo><mi>i</mi></munder><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><msub><mi>y</mi><mn>1</mn></msub><mo>+</mo><msub><mi>y</mi><mn>2</mn></msub><mo>+</mo><mo>…</mo><mo>+</mo><msub><mi>y</mi><mi>n</mi></msub></math><p>对应的总体均值是<math><mi>μ</mi></math></p><p>在多数情况下，总体均值未知，此时常用样本均值对相应的总体均值作出推断</p><p>分组数据的样本均值公式比刚提到的未分组数据的公式稍微复杂些。在某些情况下，原始数据会在频数表或直方图中给出，因此，个体的样本测量值未知，只能知道它所在的区间。</p><p>在这种情况下，对于分组数据的均值公式只是实际样本均值的近似公式，因此,当样本测量值已知时，应使用未分组数据的公式，若有<math><mi>k</mi></math>个分组区间,且</p><p><math><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mi>第</mi><mi>i</mi><mi>个</mi><mi>区</mi><mi>间</mi><mi>的</mi><mi>中</mi><mi>点</mi></math></p><p><math><msub><mi>f</mi><mi>i</mi></msub><mo>=</mo><mi>第</mi><mi>i</mi><mi>个</mi><mi>区</mi><mi>间</mi><mi>的</mi><mi>频</mi><mi>数</mi></math></p><p><math><mi>n</mi><mo>=</mo><mi>测</mi><mi>量</mi><mi>值</mi><mi>的</mi><mi>总</mi><mi>数</mi></math></p><p>那么,</p><math display="block"><mover><mi>y</mi><mo accent="true">‾</mo></mover><mover><mo>=</mo><mo accent="true">˜</mo></mover><mfrac><mrow><munder><mo>∑</mo><mi>i</mi></munder><mi>f</mi><msub><mi>y</mi><mi>i</mi></msub></mrow><mi>n</mi></mfrac></math><p>这儿,<math><mover><mo>=</mo><mo accent="true">˜</mo></mover></math>表示大约相等，从未分组数据得到的样本均值和从分组数据得到的样本均值的数值并不总是相同的，然而，当分组区间的数目相当大时，这两个值相当接近</p><div class="warning custom-block"><p class="custom-block-title">WARNING</p><p>均值是对一组测量值中心的常用的度量，但它会由于在集合中一个或者多个极端值的出现而发生失真，在这种情况，极端值(又称做离散值)会使均值偏向自己一方，而发生偏执，对于一种变通的方法就是截取最大和最小值，对于其余的数做平均,有时中位数比均值更合适</p></div><p>对于某组测量值，这些中心趋势度量之间有何联系呢?答案依赖与数据的<strong>偏倚程度(偏值)</strong>,若分布是丘形的,并且关于单峰对称,则众数(<math><msub><mi>M</mi><mi>o</mi></msub></math>),均值(<math><mi>μ</mi></math>)和截尾均值(<math><mi>T</mi><mi>M</mi></math>)是相同的</p><p>要记住的重要一点是: 我们不能局限于仅用一种中心趋势度量，对某些数据集合，有必要用多种度量，才能对数据的中心趋势作出准确的描述性的概括:</p><ul><li><p><strong>众数</strong></p><ol><li>它是数据集合中出现最多，或者说出现的可能性最大的测量值</li><li>一个数据集合可能存在不止一个众数</li><li>不受极端测量值的影响</li><li>子集的众数不能联合起来确定整个集合的众数</li><li>对于分组数据,众数的值随所用的类别而改变</li><li>对于定性数据和定量数据均适用</li></ol></li><li><p><strong>中位数</strong></p><ol><li>它是中心值，50%的测量值比它大，50%的测量值比它小</li><li>一个数据集合仅有一个中位数</li><li>不受极端测量值的影响</li><li>子集的中位数放在一起不能用来确定整个集合的中位数</li><li>对于分组数据,即使用不同的方法对数据进行分类，它的值也是相当稳定的</li><li>仅适用与定量数据</li></ol></li><li><p><strong>均值</strong></p><ol><li>它是数据集合中测量值的算术平均值</li><li>一个数据集合仅有一个均值</li><li>其值受极端测量值的影响。截尾有助于减少这种影响</li><li>子集合的均值放在一起可以决定整个集合的均值</li><li>仅适用与定量数据</li></ol></li></ul><h2 id="单个变量数据的描述：-变异性度量"><a href="#单个变量数据的描述：-变异性度量" aria-hidden="true" class="header-anchor">#</a> 单个变量数据的描述： 变异性度量</h2><p>仅用中心度量描述数据是不充分的:</p><ul><li><p><strong>极差</strong>: 一组测量值的<strong>极差</strong>是指此集合中最大与最小测量值之间的差,对于<strong>分组数据</strong>，由于不知道个体的测量值，<strong>极差</strong>取为最后一个区间上的上限和第一个区间的下限之间的差,虽然极差易于计算，但是它依赖与最极端的值，所以容易受离散值的影响</p></li><li><p><strong>百分位数</strong>: <math><mi>n</mi></math>个按大小排列的测量值集合的<math><mi>p</mi></math>%分位数是指这样的一个数值，集合中有至多<math><mi>p</mi><mi>%</mi></math>的测量值比它小，有至多(<math><mn>100</mn><mo>-</mo><mi>p</mi></math>)%的测量值比它大</p></li></ul><p><img src="" alt="An image"></p><p>人们特别感兴趣的百分位数是25%,50%,75%分位数,分别是四分之一分位数，二分之一分位数(中位数),四分之三分位数</p><p><img src="" alt="An image"></p><p>百分位数计算如下:每一个数据值都对应一个百分位数，这个百分位数的百分比等于数据集合中值小于或者等于它的数据值所占的百分比,记<math><msub><mi>y</mi><mn>1</mn></msub><mo>,</mo><msub><mi>y</mi><mn>2</mn></msub><mo>,</mo><msub><mi>y</mi><mi>n</mi></msub></math>为数据集合的顺序观察值，也就是</p><math display="block"><msub><mi>y</mi><mn>1</mn></msub><mo>≤</mo><msub><mi>y</mi><mn>2</mn></msub><mo>≤</mo><mo>…</mo><mo>≤</mo><msub><mi>y</mi><mi>n</mi></msub></math><p>第<math><mi>j</mi></math>个观察值<math><msub><mi>y</mi><mi>j</mi></msub></math>对应于100(<math><mi>j</mi></math>-0.5)/<math><mi>n</mi></math>百分位数，用公式100(<math><mi>j</mi></math>-0.5)/<math><mi>n</mi></math>代替100<math><mi>j</mi></math>/<math><mi>n</mi></math>以避免<math><msub><mi>y</mi><mi>n</mi></msub></math>作为100%分位数</p><p>当处理大量数据时，常常百分位数推广到分位数，所谓分位数，记作<math><mi>Q</mi></math>(<math><mi>u</mi></math>),它把容量为<math><mi>n</mi></math>的样本分为两组，使得在<math><mi>n</mi></math>个数据值有<math><mi>u</mi></math>这么大的比例小于或者等于该数，即<math><mi>Q</mi></math>(<math><mi>u</mi></math>)</p><p>对于分组以后的数据，可以用以下公式近似原始数据的百分位数,令</p><p><math><mi>P</mi><mo>=</mo><mi>要</mi><mi>求</mi><mi>的</mi><mn>百分</mn><mi>位</mi><mi>数</mi></math></p><p><math><mi>L</mi><mo>=</mo><mi>包</mi><mi>含</mi><mi>所</mi><mi>求</mi><mi>的</mi><mn>百分</mn><mi>位</mi><mi>数</mi><mi>的</mi><mn>分</mn><mi>组</mi><mi>区</mi><mi>间</mi><mi>的</mi><mi>下</mi><mi>限</mi></math></p><p><math><mi>n</mi><mo>=</mo><mi>总</mi><mi>频</mi><mi>数</mi></math></p><p><math><mi>c</mi><msub><mi>f</mi><mi>b</mi></msub><mo>=</mo><mn>百分</mn><mi>位</mi><mi>数</mi><mi>所</mi><mi>在</mi><mi>区</mi><mi>间</mi><mi>前</mi><mi>的</mi><mi>所</mi><mi>有</mi><mn>分</mn><mi>组</mi><mi>区</mi><mi>间</mi><mi>上</mi><mi>的</mi><mi>累</mi><mi>积</mi><mi>频</mi><mi>数</mi></math></p><p><math><msub><mi>f</mi><mi>p</mi></msub><mo>=</mo><mi>包</mi><mi>含</mi><mi>所</mi><mi>要</mi><mi>求</mi><mi>的</mi><mn>百分</mn><mi>位</mi><mi>i</mi><mi>数</mi><mi>的</mi><mn>分</mn><mi>组</mi><mi>区</mi><mi>间</mi><mi>上</mi><mi>的</mi><mi>频</mi><mi>数</mi></math></p><p><math><mi>w</mi><mo>=</mo><mi>区</mi><mi>间</mi><mi>宽</mi><mi>度</mi></math></p><p>那么,以65%的分位数为例，将用下面这个公式计算:</p><math display="block"><mi>P</mi><mo>=</mo><mi>L</mi><mo>+</mo><mfrac><mi>w</mi><msub><mi>f</mi><mi>p</mi></msub></mfrac><mi>（</mi><mn>0.65</mn><mi>n</mi><mo>-</mo><mi>c</mi><msub><mi>f</mi><mi>b</mi></msub><mi>）</mi></math><p>为了确定<math><mi>L</mi></math>,<math><msub><mi>f</mi><mi>p</mi></msub></math>和<math><mi>c</mi><msub><mi>f</mi><mi>b</mi></msub></math>从最低区间开始,找出累积频率超过<math><mn>0.65</mn></math>的第一个区间,这个区间将包含<math><mn>65</mn><mi>%</mi></math>分位数</p><p>现定义变异性的第二个度量:</p><ul><li><strong>四分位数间距</strong>: 一组测量值的 <strong>四分位数间距(IQR)</strong> 是指四分之三和四分之一分位数的差异,即</li></ul><math display="block"><mi>I</mi><mi>Q</mi><mi>R</mi><mo>=</mo><mn>75</mn><mi>%</mi><mi>的</mi><mn>分</mn><mi>位</mi><mi>数</mi><mo>-</mo><mn>25</mn><mi>%</mi><mi>的</mi><mn>分</mn><mi>位</mi><mi>数</mi></math><div class="tip custom-block"><p class="custom-block-title">TIP</p><p>四分位数间距对于数在中点的集中比极差更加敏感，实际上IQR仅仅度量了为覆盖中间的50%的数据所需要的距离,所以完全忽略了最低端的25%和最高端的25%的数据的变异性</p><p>IQR不能就单独一组测量值的变异性提供太多有用信息，但是对于比较两组或者多组测量值的变异性则相当有用，尤其是数据集合有偏倚时</p></div><p>在大多情况下，为了对数据集合进行最低的限度的描述，至少需要 <strong>五个概括性的量</strong> ，即 <strong>最小值<math><msub><mi>y</mi><mn>1</mn></msub></math></strong>，<strong>四分之一分位数 <math><mi>Q</mi></math>(0.25)</strong>，<strong>中位数</strong>，<strong>四分之三分位数<math><mi>Q</mi></math>(0.75)</strong>，<strong>以及最大值<math><msub><mi>y</mi><mi>n</mi></msub></math></strong></p><div class="tip custom-block"><p class="custom-block-title">TIP</p><p>当数据集合有一个单峰、钟形并对称的频率直方图时，只用样本均值以及一个变异性度量即样本方差就可以描述该数据集合</p></div><p>现在来寻找变异性的一个灵敏的测量方法,不仅可以用来比较两组测量值的变异性,而且,也可以用来解释单个测量值集合的变异性,为此。我们使用<math><mi>y</mi><mo>-</mo><mover><mi>y</mi><mo accent="true">‾</mo></mover></math>即测量值<math><mi>y</mi></math>与这组测量值的均值<math><mover><mi>y</mi><mo accent="true">‾</mo></mover></math>的 <strong>离差</strong></p><p>一个更加易于理解的离差的函数，是这些测量值相对于均值的离差的平方和，称为<strong>方差</strong></p><ul><li><strong>方差</strong>: 一组均值为<math><mover><mi>y</mi><mo accent="true">‾</mo></mover></math>的n个的测量值的方差定义为离差的平方和除以n-1,即</li></ul><math display="block"><mfrac><mrow><munder><mo>∑</mo><mi>i</mi></munder><mi>（</mi><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><mover><mi>y</mi><mo accent="true">‾</mo></mover><msup><mi>）</mi><mn>2</mn></msup></mrow><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></mfrac></math><p>样本方差记为<math><msup><mi>s</mi><mn>2</mn></msup></math>,总体方差记为<math><msup><mi>σ</mi><mn>2</mn></msup></math></p><p>另一个有用的变异性度量是<strong>标准差</strong>,指方差的平方差，它产生了与原始数据具有相同量纲的变异性度量，然而方差的单位却是测量值单位的平方</p><ul><li><strong>标准差</strong>: 一组测量值的标准差定义为其方差的正的平方根,样本标准差记为<math><mi>s</mi></math>,总体标准差记为<math><mi>σ</mi></math></li></ul><div class="tip custom-block"><p class="custom-block-title">TIP</p><p>若只有分组数据时，可对样本方差公式做简单的调整求得近似样本的方差，令<math><msub><mi>y</mi><mi>i</mi></msub><mo>,</mo><msub><mi>f</mi><mi>i</mi></msub></math>分别表示第i个分组区间的中点和频数,用这些记号,分组数据得样本方差是<math><msup><mi>s</mi><mn>2</mn></msup><mo>=</mo><mfrac><mrow><munder><mo>∑</mo><mi>i</mi></munder><msub><mi>f</mi><mi>i</mi></msub><mi>（</mi><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><mover><mi>y</mi><mo accent="true">‾</mo></mover><msup><mi>）</mi><mn>2</mn></msup></mrow><mrow><mi>（</mi><mi>n</mi><mo>-</mo><mn>1</mn><mi>）</mi></mrow></mfrac></math>,样本得标准差是<math><msqrt><msup><mi>s</mi><mn>2</mn></msup></msqrt></math></p></div><p>我们已经讨论了变异性得几个度量,每一个都可以用来对比两组或者多组测量值之间得变异值，其中标准差尤其受到欢迎，原因有二:</p><p>(1). 可以用标准差对比两个以上得数据及和之间得变异性
(2). 可以从下面得准则所得到得结论解释一组测量值得标准差，这个准则适合于大体上有''丘形''直方图---也就是说,其直方图单峰、对称并在尾部逐渐降低，由于很多数据集合都可以归于“丘形”类中，这个准则应用得很广泛，由此称之为经验准则:</p><ul><li><p><strong>经验准则</strong>:</p><p>若一个含有n个测量值得及和拥有&quot;丘形&quot;直方图，那么，</p></li></ul><math display="block"><mi>区</mi><mi>间</mi><mover><mi>y</mi><mo accent="true">‾</mo></mover><mo>±</mo><mi>s</mi><mi>大</mi><mi>约</mi><mi>包</mi><mi>含</mi><mi>有</mi><mi>这</mi><mi>组</mi><mi>测</mi><mi>量</mi><mi>值</mi><mi>的</mi><mn>68</mn><mi>%</mi></math><math display="block"><mi>区</mi><mi>间</mi><mover><mi>y</mi><mo accent="true">‾</mo></mover><mo>±</mo><mn>2</mn><mi>s</mi><mi>大</mi><mi>约</mi><mi>包</mi><mi>含</mi><mi>有</mi><mi>这</mi><mi>组</mi><mi>测</mi><mi>量</mi><mi>值</mi><mi>的</mi><mn>95</mn><mi>%</mi></math><math display="block"><mi>区</mi><mi>间</mi><mover><mi>y</mi><mo accent="true">‾</mo></mover><mo>±</mo><mn>3</mn><mi>s</mi><mi>大</mi><mi>约</mi><mi>包</mi><mi>含</mi><mi>有</mi><mi>这</mi><mi>组</mi><mi>测</mi><mi>量</mi><mi>值</mi><mi>的</mi><mn>99.7</mn><mi>%</mi></math><p>为了比较两个很不相同得流程或者总体得变异性，需要定义另一个变异性度量---<strong>变异系数</strong>，它在数量上度量了一个总体得变异性相对于其总体均值得大小。在一个均值为<math><mi>μ</mi></math>,标准差为<math><mi>σ</mi></math>得流程或者总体中，<strong>变异系数</strong>定义为</p><math display="block"><mi>C</mi><mi>V</mi><mo>=</mo><mfrac><mi>σ</mi><mrow><mo>|</mo><mi>μ</mi><mo>|</mo></mrow></mfrac></math><p>此处假设<math><mi>μ</mi><mo>≠</mo><mn>0</mn></math>.因此，变异系数是单位均值上总体或者流程得标准差</p><h2 id="盒形图"><a href="#盒形图" aria-hidden="true" class="header-anchor">#</a> 盒形图</h2><p>又译为箱线图，是建立在茎叶图所显示得基础上，它更多地关注分布得对称性，并结合中心趋势以及位置得数字度量研究记分得变异性以及在分布得尾部记分得分布情况</p><p>合形图用到了一个分布得中位数和四分位数</p><div class="warning custom-block"><p class="custom-block-title">WARNING</p><p>暂不讨论</p></div><h2 id="多变量数据的概括"><a href="#多变量数据的概括" aria-hidden="true" class="header-anchor">#</a> 多变量数据的概括</h2><p>我们要对各个变量得数据分别进行概括，也可能要研究变量之间得关系，首先我们考虑来自两个定性变量的数据得概括问题，对于这样得数据，我们可以构造交叉列表，形成<strong>列联表</strong>，表中得行给出其中一个变量取值得种类，而表中得列给出另一个变量取值得种类，表中的数值是两个变量各取其一个可能得值得次数</p><p>在列联表中寻求变量之间关系得最简单得方法是比较基于行得总和，列得总和或所有数的总和的百分比</p><p>对于来自两个定性变量的数据，一个广义的条形图提供了方便的显示数据得方法，这就是<strong>堆垒条形图</strong>，<strong>集类条形图</strong>,<strong>散点图</strong>,<strong>并立盒形图</strong>等</p><hr><blockquote><p>原文：<a href="https://vuepress.vuejs.org/guide/getting-started.html" target="_blank" rel="noopener noreferrer">https://vuepress.vuejs.org/guide/getting-started.html</a></p></blockquote><hr></div><div class="content edit-link"><a href="https://github.com/docschina/vuepress/edit/master/docs/basic/getting-started.md" target="_blank" rel="noopener noreferrer">在GitHub上编辑此页</a><svg xmlns="http://www.w3.org/2000/svg" aria-hidden="true" x="0px" y="0px" viewBox="0 0 100 100" width="15" height="15" class="icon outbound"><path fill="currentColor" d="M18.8,85.1h56l0,0c2.2,0,4-1.8,4-4v-32h-8v28h-48v-48h28v-8h-32l0,0c-2.2,0-4,1.8-4,4v56C14.8,83.3,16.6,85.1,18.8,85.1z"></path><polygon fill="currentColor" points="45.7,48.7 51.3,54.3 77.2,28.5 77.2,37.2 85.2,37.2 85.2,14.9 62.8,14.9 62.8,22.9 71.5,22.9"></polygon></svg></div><div class="content page-nav"><p class="inner"><span class="prev">
        ← <a href="/material/basic/" class="prev router-link-active">
          介绍
        </a></span><span class="next"><a href="/material/basic/basic-config.html">
          概率和概率分布
        </a> →
      </span></p></div></div></div></div>
    <script src="/material/assets/js/12.2aab57fe.js" defer></script><script src="/material/assets/js/app.671f232e.js" defer></script>
  </body>
</html>
